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摘要 : [ 目的 ] 通过 构建 简单 数据 样本 ,解决 传统 网 页 类 型 识别 方法 效率 低 的 难题 。【 方法 ] 采用 URL 特征 作为 
识别 依据 , 抽取 URL 信息 构建 训练 集 与 测试 集 , 使 用 支持 向 量 机 (SVM) 建 立 机 器 学 习 模型 以 提高 识别 效率 。[ 结 
果 ] 在 同样 的 数据 集 上 ,该 方法 的 准确 率 为 91.2%, 优 于 其 他 识别 方法 在 效率 性 能 方面 , 该 方法 提升 近 60%。[ 局 
限 】 当 遇 到 URL 特征 不 明显 其 至 完全 相 背 的 网 站 时 , 识别 准确 率 会 大 幅度 降低 。[ 结论 ] 该 方法 在 效率 方面 存 


在 很 大 优势 ， 应 用 到 采集 系统 中 可 提高 采集 效率 。 
关键 词 : URL 特征 ”Hub 网 页 ”支持 向 量 机 
分 类 号 : TP391.1 G35 


1 引 Ë 


随 着 网 络 的 发 展 ，Web 上 的 网 页 数量 增长 迅猛 ， 

即使 采用 大 规模 的 分 布 式 网 页 采集 系统 , 采集 整个 网 
络 中 的 绝 大 多 数 重要 网 页 也 要 花费 很 长 时 间 。 人 研究 结 
ARAB], 中 国 的 网 页 一 个 月 内 大 约 只 有 8.52% 发 生变 
LU, 所 以 采用 全 采集 的 方式 ,存在 很 大 的 资源 浪费 。 
另外 由 于 两 次 采集 的 周期 过 长 , 在 此 周期 内 网 页 变化 
频率 大 的 网 页 发 生 了 多 次 变化 ,而 采集 系统 不 能 及 时 
抓 取 变化 后 的 网 页 ， 就 会 导致 搜索 引擎 系统 不 能 对 这 
些 网 页 提供 检索 服务 。 为 了 解决 这 个 问题 , 产生 了 网 
页 增 量 采 集 系 统 。 
网 页 增 量 采 集 系 统 不 是 采集 所 有 得 到 的 URL, 只 
是 通过 估计 网 页 的 变化 规律 采集 新 出 现 的 网 页 、 变 化 
的 网 页 和 消失 的 网 页 , 不 关心 没有 变化 的 网 页 。 这 样 
极 大 减少 了 采集 量 , 能 快速 同步 Web 上 的 网 页 与 搜索 
引擎 中 的 网 页 ， 从 而 给 用 户 提 供 更 实时 的 检索 服务 。 

在 增 量 式 采 集 研究 中 ,网 页 通常 被 分 为 目录 型 网 
页 (Hub 网 页 ) 与 主题 型 网 页 (Topic WOP, Hub 网 页 在 
网 站 中 的 作用 是 引导 用 户 找到 相关 的 主题 网 页 ， 相 当 


供 入 口中 。 主 题 型 网 页 是 具体 讲述 某 一 主题 。 经 实验 
证 明 , 很 多 新 网 页 都 是 从 Hub 网 页 链接 过 去 的 中。 
此 , 增 量 式 采集 系统 只 要 找 出 Hub 网 页 进行 采集 就 能 
发 现 新 出 现 的 URL。 如 上 所 述 , 识别 哪些 网 页 是 Hub 
网 页 就 成 为 首先 要 解决 的 问题 。 

针对 此 问题 , 本文 提 出 一 种 基于 URL 特征 的 
Hub 网 页 识别 方法 ,首次 将 URL 特征 作为 Hub 网 页 
识别 的 全 部 依据 ,这 将 会 弥补 传统 Hub 网 页 识别 所 
带 来 的 巨额 开销 ， 最 后 通过 对 比 实验 验证 该 方法 的 
有 效 性 。 


2 相关 工作 


目前 主要 的 Hub 网 页 识别 方法 有 基于 简单 规则 的 
识别 方法 外 、 基 于 多 特征 启发 式 规则 的 分 类 方法 4 和 
基于 网 页 内 容 的 机 器 学 习 方 法 [六 。 

基于 简单 规则 的 识别 方法 是 分 析 Hub 网 页 URL 
的 特点 ， 总结 出 其 规律 , 制定 简单 规则 , 符合 条 件 的 
就 是 Hub 网 页 .Meng 等 提出 选择 网 站 首页 ， 以 及 网 站 
中 网 页 文件 名 包含 index、class 和 default 等 单词 的 网 
页 作为 Hub 网 页 外， 采集 Hub 网 页 中 链接 所 对 应 的 网 


于 目录 索引 ,没有 具体 表达 的 内 容 ,为 主题 型 网 页 提 


页 。 该 方法 能 采集 到 一 大 部 分 新 网 页 , 但 是 对 新 网 页 


通讯 作者 : 张 策 , ORCID: 0000-0001-6640-4460, E-mail: smiling boy@163.com。 


* 本 文系 国家 自然 科学 基金 项 目 “ 网 页 内 容 真 实 性 评价 研究 "(项 


现代 图 书 情报 技术 


编号 : 61171159) 的 研究 成 果 之 一 。 


采集 的 召回 率 不 是 很 高 。 存 在 以 下 问题 ; 

(1) Hub 网 页 选择 不 准确 。 由 于 网 页 的 文件 名 是 由 
人 命名 的 , 没有 固定 模式 , 因此 不 可 能 寻找 到 一 个 规 
则 可 以 正确 找 出 所 有 Hub 网 页 ; 

(2) 不 能 自动 识别 Hub 网 页 。 由 于 在 采集 过 程 中 
不 能 及 时 发 现 新 的 Hub 网 页 ， 所 以 就 不 能 发 现 新 Hub 
网 页 中 的 链接 信息 。 

为 了 解决 基于 简单 规则 方法 的 局 限 性 , Ail 等 提出 
基于 多 特征 启发 式 规 则 的 网 页 分 类 方法 , 依据 非 链 接 
字符 数 、 标 点 符号 数 和 文字 链接 比 三 个 特征 构建 启发 
式 规则 馈 。 研 究 发 现 Hub 网 页 与 主题 网 页 在 这 些 特 征 
值 上 存在 广泛 差异 , 这 种 差异 证 明了 网 页 通过 这 些 特 
征 值 进行 分 类 的 可 行 性 。 该 方法 通过 统计 网 页 中 各 个 
特征 的 具体 值 , 根据 贝 叶 斯 公式 计算 各 个 特征 值 对 
Hub 网 页 的 概率 支持 度 , 根据 每 个 特征 值 的 概率 支持 
求 出 综合 支持 度 , 通过 与 设 定 的 阔 值 进行 比较 , 判断 
网 页 属于 哪 一 类 。 该 方法 的 不 足 之 处 在 于 过 度 依赖 阔 
值 的 设 定 ， 阔 值 的 设 定 会 直接 影响 分 类 的 准确 率 ， 然 
而 对 于 不 同类 型 网 站 ,， 阔 值 设 定 也 不 同 ,这样 就 增加 
了 算法 的 复杂 度 。 

为 了 解决 阔 值 的 依赖 问题 ,文献 [9] 提 出 基于 网 页 
内 容 的 机 器 学 习 方 法 , 通过 HTML 解析 分 析出 网 页 特 
征 ， 建 立 训 练 集 与 测试 集 ， 从 而 得 到 机 器 学 习 模 型 ， 
用 于 识别 Hub 网 页 。 该 方法 准确 率 高 , 但 是 效率 不 高 ， 
增加 了 系统 的 额外 开销 。 因 为 该 方法 是 建立 在 网 页 内 
容 的 基础 上 , 需要 解析 所 有 的 HTML 网 页 ,并 提取 其 
中 的 特征 进行 保存 ， 这 样 就 在 一 定 程度 上 占用 了 系 
统 资源 ,给 采集 系统 带 来 额外 人 负担, 影响 采集 系统 的 
性 能 。 

上 述 方法 从 不 同 层面 对 识别 Hub 网 页 进行 分 析 ， 
在 前 人 研究 的 基础 上 , 本 文 提出 的 基于 URL 特征 的 
识别 方法 , 将 会 很 大 程度 地 解决 上 述 问题 。 该 方法 采 
JH URL 特征 作为 样本 , 选用 SVM 作为 机 器 学 习 方 法 
进行 识别 。 与 基于 规则 和 基于 网 页 内 容 的 方法 相 比 ， 
提供 了 一 种 更 具 使 用 价值 的 方法 。 一 方面 ,特征 提取 
简单 高 效 , 易于 实现 , 同时 兼顾 了 识别 的 准确 率 。 男 
一 方面 , 在 采集 系统 中 ， 从 网 页 中 提取 URL 是 必 不 
可 少 的 部 分 , 因此 选用 URL 作为 识别 依据 ,可 以 减 
小 对 系统 效率 的 影响 , 不 会 给 采集 系统 增加 太 大 的 
额外 开销 。 


3 ”基于 URL 特征 的 Hub 网 页 识别 方法 


3.1 SVM 介绍 

支持 向 量 机 (Support Vector Machines, SYVM) 是 由 
Vapnik 等 开发 的 一 种 机 器 学 习 方 法 。 支 持 向 量 机 是 建 
立 在 统计 学 理论 一 一 VC 维 理论 和 结构 风险 最 小 原理 
基础 上 的 , 特别 是 在 样本 数目 较 少 的 情况 下 ,SVM 的 
性 能 明显 优 于 其 他 算法 I。 

其 基本 思想 为 : 定义 最 优 线 性 超 平面 , 将 寻找 最 
优 超 平面 的 算法 归结 为 求解 一 个 最 优 ( 凸 规划 ) 问 题 。 
进而 基于 Mercer 核 展 开 定理 , 通过 非 线 性 映射 ,将 样 
本 空间 映射 到 一 个 高 维 乃 至 于 无 穷 维 的 特征 空间 , 使 
在 特征 空间 可 以 应 用 线性 学 习 机 的 方法 解决 样本 空间 
中 高 度 非 线性 分 类 和 回归 等 问题 。 其 还 包括 以 下 优点 : 

(1) 基于 结构 风险 最 小 化 原则 ， 这 样 可 以 避免 过 
拟 合 问题 , 泛 化 能 力 强 。 

(2) SVM 有 坚实 理论 基础 的 小 样本 学 习 方 法 。 它 
基本 上 不 涉及 概率 测度 及 大 数 定 律 。 从 本 质 上 看 , GRE 
开 了 从 归纳 到 演绎 的 传统 过 程 ， 实现 了 高 效 的 从 训练 
样本 到 预测 样本 的 “ 转 导 推理 "， 大 大 简化 了 通常 的 分 
类 和 回归 等 问题 。 

(3) SVM 的 最 终 决 策 函 数 只 由 少数 的 支持 向 量 所 
确定 , 计算 的 复杂 性 取决 于 支持 向 量 的 数目 , 而 不 是 样 
本 空间 的 维 数 ,这 在 某 种 意义 上 避免 了 “ 维 数 灾难 ”。 

(4) 少数 支持 向 量 决定 了 最 终结 果 , 这 有 助 于 抓 住 
关键 样本 、“ 剔 除 " 大 量 元 余 样 本 ， 而 且 注 定 了 该 方法 算 
法 简单 ,同时 具有 较 好 的 “ 鲁 棒 ”性 。 

3.2 方法 概述 

Hub 网 页 识别 可 以 理解 为 一 个 二 分 类 问题 ,其 中 
正 类 为 Hub 网 页 , 负 类 为 主题 网 页 , Hub 网 页 识别 的 关 
键 是 如 何 正确 划分 Hub 网 页 与 主题 网 页 。 

基于 URL 特征 的 Hub 网 页 识别 方法 主要 依据 
URL 中 与 Hub 网 页 有 关系 的 特征 划分 网 页 。 具 体 过 
程 如 下 : 分 析 已 经 得 到 的 URL, 提取 其 中 包含 的 特 
征 信息 , 找 出 与 Hub 网 页 有 关 的 特征 ; 将 得 到 的 特征 
整合 成 训练 集 与 测试 集 , 用 训练 集 去 训练 SVM 机 器 
学 习 模 型 ， 同 时 评测 其 效果 ; 根据 效果 调整 SVM 模型 
参数 ， 从 而 确定 最 优 参数 ,得 到 最 终 SVM 学 习 模 型 。 
3.3 ”实现 流程 
图 1 展示 了 基于 URL 特征 的 Hub 网 页 识别 方法 
的 架构 ， 从 整体 角度 出 发 , 该 方法 主要 包含 三 大 模块 : 
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图 1 Hub 网 页 识别 的 架构 


(1) 预 处 理 

预 处 理 主要 包括 URL 分 析 。URL 中 包含 很 多 信 
E, 其 中 一 些 信息 可 以 作为 网 页 分 类 的 依据 ，URL 分 
析 的 目的 在 于 找 出 对 分 类 有 用 的 特征 信息 。URL 中 存 
在 的 信息 包括 URL 长 度 以 及 URL 之 中 是 否 包 含 某 些 


字符 串 等 。URL 所 对 应 的 锚 文本 也 能 在 一 定 程度 上 反 
映 网 页 类 型 ， 因 此 , 需要 在 预 处 理 阶段 提取 URL 所 对 
应 的 锚 文 本 。 

本 实验 的 基础 数据 都 是 预先 由 网 络 采集 器 采集 ， 
在 采集 过 程 中 ,URL 及 其 对 应 的 标题 等 采集 信息 会 作 
为 日 志文 件 被 记录 下 来 。 因 此 , 实验 通过 抽取 日 志文 
件 内 容 进行 分 析 ， 获 取 其 中 URL 相关 信息 。 其 中 包括 
URL 标题 长 度 、URL 长 度 、URL 是 否 含有 日 期 、 网 
页 文件 名 、 文 件 类 型 、 参 数 名 称 、 参 数 个 数 、 目 录 名 
称 、 目 录 深 度 、URL KD, RERE. 

(2) 特征 提取 

特征 提取 主要 包括 特征 选择 与 特征 量化 。 特 征 选 
择 的 任务 是 要 将 信息 量 小 、 不 重要 的 特征 从 特征 项 空 
间 中 删除 从 而 降低 特征 项 空间 的 维 数 。 特 征 量化 是 
将 选择 的 特征 进行 数值 化 , 从 而 代表 该 特征 和 Hub 页 
的 关联 程度 。 

Zt URL 分 析 , 可 以 得 到 URL 中 包含 的 信息 , 通过 
查阅 相关 文献 并 观察 统计 可 以 发 现 Hub 网 页 具有 以 下 
区 别 于 主题 网 页 的 特征 : 

(DURL 标题 长 度 : 即 锚 文本 长 度 , Hub 网 页 由 于 不 讲述 
某 一 具体 内 容 ， 锚 文本 长 度 一 般 较 短 。 

QURL XE: 由 于 Hub 网 页 基本 都 位 于 主题 网 页 上 层 ， 
因此 Hub 网 页 的 URL 相 比 主题 网 页 较 短 。 

(BURL 是 否 含有 日 期 : 主题 网 页 主要 讲述 某 一 内 容 ,， 在 
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URL 中 大 多 包含 发 布 日 期 , Hub 网 页 基本 没有 。 

DA R XIZ: Hub 网 页 URL 一 般 有 两 种 可 能 : 只 是 一 
个 目录 , 不 存在 文件 名 ; 文件 名 中 大 都 包含 “index”、“‘class” 
等 词语 。 

(文件 类 型 : 文件 类 型 与 网 页 文件 名 是 一 体 的， 存在 网 
页 文件 名 的 Hub 网 页 大 多 数 是 ASP, JSP, ASPX 和 PHP 类 型 。 

@ 参 数 名 称 : 存在 参数 的 URL 中 ,主题 网 页 URL 大 都 
包含 ID 参数 , 而 Hub 网 页 的 URL 一 般 没 有 。 

DANX: Hub 网 页 URL. 大 多 没有 参数 。 

目录 深度 : Hub 网 页 基本 上 都 是 位 于 网 站 的 上 层 。 

(OURL 大 小 : FP URL 对 应 网 页 的 大 小 。Hub 网 页 存在 
大 量 链接 ， 对 应 网 页 也 相对 较 大 。 

(0 采集 深度 : 采集 到 该 URL 的 层次 。Hub 网 页 为 主题 
网 页 提供 链接 入 口 ， 因 此 , Hub 网 页 采集 一 般 都 先 于 主题 网 页 。 

机 器 学 习 模型 只 能 将 数值 类 型 进行 分 类 ,因此 需 
要 将 文本 类 型 进行 数值 化 , 数值 化 的 依据 为 归纳 不 同 
类 型 URL 的 文本 值 ， 找 出 代表 性 的 文本 值 进 行 赋值 , 
赋值 是 通过 统计 求 出 各 个 文本 值 的 出 现 频率 , 然后 计 
算 其 出 现 概率 并 进行 归 一 化 处 理 。 在 统计 中 , 选取 500 
个 Hub 网 页 ， 对 各 个 文本 值 数量 进行 统计 并 计算 概率 ， 
将 概率 乘 以 100 进 行 赋值 (只 是 为 了 让 最 后 得 到 的 特征 
值 在 一 个 合理 的 范围 ) 具体 过 程 如 下 : 

人 网 页 文件 名 为 “ 空 ”的 数量 为 302， 其 概率 为 0.604， 赋 
值 为 60.4; 含有 “class” "index", “default” felist tgk E A 
153， 其 概率 为 0.306， 赋 值 为 30.6; AA “article” fe"content" 
的 数量 为 0， 其 概率 为 0， 赋值 为 0; 其 他 情况 数量 为 45, 其 
概率 为 0.09, 赋值 为 9。 

@) 文 件 类 型 为 “ 空 ”的 数量 为 302， 其 概率 为 0.604, 赋值 
为 60.4; 含有 “asp”、“jsp”、“aspx” 和 “php” 的 数量 为 123， 其 
概率 为 0.246, 赋值 为 24.6; 含有 “shtml”、“html” 和 “htm” 的 
数量 为 75， 其 概率 为 0.15, 赋值 为 15; 其 他 情况 数量 为 0, 
其 概率 为 0， 赋值 为 0。 

(和 参数 名 称 为 “ 空 ”的 数量 为 412, 其 概率 为 0.824, 赋值 
为 82.4; 含有 “id” 的 数量 为 52,， 其 概率 为 0.104, 赋值 为 10.4; 
其 他 情况 的 数量 为 36, 其 概率 为 0.072， 赋 值 为 7.2。 

(3) 训练 分 类 

通过 以 上 步骤 , 将 URL 表示 成 向 量 空间 , 使 用 
LibSVMI xj URL 进行 分 类 。LibSVM 是 一 个 快速 有 
效 的 SVM 模式 识别 与 回归 的 集成 包 , 还 提供 了 源码 ， 
可 以 根据 需求 对 源码 进行 修改 。 本 实验 使 用 的 是 
LibSVM-3.20 版 本 "中 的 Java 源 代码 , 在 参数 设置 和 训 
练 模型 两 个 方面 对 源码 进行 修改 , 增加 参数 自动 寻 优 


以 及 模型 文件 返回 保存 功能 。 

(按照 LibSVM 所 要 求 的 格式 准备 数据 集 。 

该 算法 使 用 的 训练 数据 和 测试 数据 文件 格式 如 下 : 

[label] [index1]:[value1] [index2]:[value2]... 

[label] [index1]:[value1] [index2]:[value2]... 

其 中 , label( 或 称 class) 是 本 条 数据 所 属 种 类 ,通常 是 一 
些 整数 ; index 表示 特征 的 序号 , 通常 是 以 1 开始 的 整数 ; 
value 是 特征 值 ,通常 是 一 些 实数 。 当 特征 值 为 0 时 , 特征 序 
号 和 特征 值 都 可 以 省 略 ， 所 以 index 可 以 是 不 连续 的 自然 数 。 

@ 对 数据 进行 简单 的 缩放 操作 。 

扫描 数据 ， 由 于 原始 数据 可 能 范围 过 大 或 过 小 ， 
svmscale 可 以 先 将 数据 重新 缩放 到 适当 的 范围 ,默认 范围 是 
[-1,1], 可 以 用 参数 lower 和 upper 分 别 调整 缩放 的 上 界 与 下 
界 。 这 样 也 避免 在 训练 时 为 了 计算 核 函数 而 计算 内 积 的 时 候 
引起 数值 计算 的 困难 。 

图 选用 RBF 核 函数 。 

SVM 的 类 型 选择 C-SVC, PP C 类 支持 向 量 分 类 机 ， 允 
许 用 异常 值 惩罚 因子 c 进行 不 完全 分 类 。c 越 大 ， 错 分 样本 
越 少 ,分 类 间距 变 小 , 泛 化 能 力 减 弱 ; c 越 小 ， 错 分 样本 越 大 ， 
分 类 间距 变 大 , 泛 化 能 力 增强 。 

核 函 数 的 类 型 选择 RBF, 原因 有 三 点 : RBF 核子 数 可 以 
将 一 个 样本 映射 到 一 个 更 高 维 的 空间 , 而 且 线 性 核 函 数 是 
RBF 的 一 个 特例 ， 也 就 是 说 如 果 考 虑 使 用 RBFE 那么 就 没有 
必要 考虑 线性 核 函 数 ; 需要 确定 的 参数 较 少 , 核 函 数 参 数 的 
多 少 直 接 影 响 函 数 的 复杂 程度 ; 对 于 某 些 参数 ,RBF 和 其 他 
核 函 数 具 有 相似 的 性 能 。 在 RBF 核 函 数 中 自 带 一 个 gamma 
参数 ， 表 示 核 函数 的 半径 ， 隐 含 地 决定 了 数据 映射 到 新 的 特 
征 空 间 后 的 分 布 。 

SVMtrain 对 训练 数据 集 进行 训 练 ， 获 得 SVM 模型 。 模 
型 内 容 如 下 : 

sym typec svc % 训 练 所 采用 的 SVM 类 型 ， 此 处 为 C-SVC 
kernel type rbf ”% 训 练 采用 的 核 函 数 类 型 ,此 处 为 RBF 核 
gamma 0.0769231 % 设 置 核 函 数 中 的 gamma 参数 , 默认 值 为 1/k 


nr class 2 % 分 类 时 的 类 别 数 ， 此 处 为 两 分 类 问题 
total sv 132 % 支 持 向 量 的 总 个 数 

rho 0.424462 % 决 策 函 数 中 的 常数 项 

label 10 % 类 别 标签 

nr sv 64 68 % 各 类 别 标签 对 应 的 支持 向 量 个 数 
SV % 以 下 为 支持 向 量 


1 1:0.166667 2:1 3:-0.333333 4:-0.433962 5:-0.383562 6:-1 7:-1 
8:0.0687023 9:-1 10:-0.903226 11:-1 12:-1 13:1 
0.5104832128985164 1:0.125 2:1 3:0.333333 4:-0.320755 
5:-0.406393 6:1 7:1 8:0.0839695 9:1 10:-0.806452 12:-0.333333 
13:0.5 
@ 采 用 十 折 交 又 验 证 选择 最 住 参 数 c 与 g(c 为 德 罚 系数 ， 
g 为 核 函 数 中 gamma 参数 )。 
交叉 验证 是 把 训练 样本 平均 分 成 10 份 , 每 次 拿 出 9 份 
当 作 训练 集 ， 剩 下 的 一 份 当 作 测试 集 ， 这 样 重复 10 次 ， 获 得 
10 次 的 平均 交 又 验证 准确 率 ， 以 此 寻找 最 佳 的 参数 ,使 得 准 
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确 率 最 高 。 在 LibSVM 源码 中 每 次 只 能 验证 一 组 参数 的 效果 ， 
要 寻求 最 优 参数 ， 只 能 多 次 手动 设置 参数 。 

本 实验 对 源码 进行 修改 ， 采 用 网 格 搜索 方法 自动 寻求 
最 优 参数 并 返回 。 具 体操 作为 自动 获取 一 组 参数 ,进行 十 折 
交叉 验证 ,得 到 平均 准确 率 ， 以 此 重复 ， 最 终 找到 对 应 最 高 
准确 率 的 那 组 参数 。 为 了 确定 训练 集 的 合适 大 小 , 选取 三 个 
训练 集 分 别 进行 训练 。 实 验 结 果 表 明 , 训练 集 为 1 000 时 , F 
均 分 类 精度 为 80%; 训练 集 为 2 000 和 3 000 时 , 平均 分 类 精 
度 都 在 91% 左 右 。 因 此 ,为 了 保证 训练 集 的 精简 , 训练 集 大 
小 选择 2 000, 平均 分 类 精度 达到 最 高 (91%) 时 , c 为 32, g 为 
0.0625. 

@ 采 用 最 佳 参 数 c 5 g 对 训练 集 进行 训练 获取 SVM BUM 

使 用 SVMtrain 函数 训练 模型 , LibSVM 中 不 会 保存 训练 
模型 ， 每 次 预测 都 需要 重新 训练 。 本 实验 改进 了 源码 ， 将 训 
练 好 的 模型 进行 本 地 保存 ， 以 方便 下 次 使 用 。 

(@ 利 用 获取 的 模型 进行 预测 。 

使 用 训练 好 的 模型 进行 测试 ,输入 新 的 义 值 , 给 出 SVM 
预测 出 的 值 。 


4 可 行 性 验证 


41 验证 方法 

分 别 与 两 种 方法 进行 对 比 实验 , 验证 基于 URL 特 
正 的 Hub 网 页 识别 方法 的 可 行 性 : 与 传统 的 基于 多 特 
正 启 发 式 规则 的 网 页 分 类 方法 对 比 ; 与 传统 的 基于 内 
容 特征 的 机 器 学 习 方法 对 比 。 该 阶段 没有 选用 与 传统 
基于 URL 的 简单 规则 识别 方法 进行 对 比 , 是 因为 在 草 
桂 峰 多 的 研究 中 已 经 明确 证 明基 于 URL 简单 规则 的 效 
果 明 显 差 于 基于 多 特征 启发 式 规则 的 分 类 方法 。 

可 行 性 主要 从 效率 和 效果 两 方面 进行 验证 , 已 有 
研究 在 提出 传统 方法 时 ,只 给 出 了 其 效果 数据 , 没有 
效率 方面 的 数据 , 因此 本 文 将 两 种 验证 方法 根据 原 有 
步骤 再 次 实现 , 在 达到 原 有 实验 效果 的 同时 得 到 其 效 
率 数据 。 

4.2 ”验证 方法 实现 

(1) 基于 多 特征 启发 式 规则 的 网 页 分 类 方法 

@ 预 处 理 操作 。 通 过 一 组 正则 表达 式 去 除 注 释 信息 、 
Script 脚本 和 CSS 样式 信息 。 

@ 计 算 网 页 的 特征 值 。 该 过 程 是 进行 网 页 分 类 的 关键 
主要 是 计算 经 过 归 一 化 后 的 非 链接 字符 数 、 标 点 符号 数 、 文 
字 链 接 比 。 

图 计算 支持 度 。 通 过 求 得 的 各 项 特征 值 计 算 该 网 页 为 主 
题 型 网 页 的 综合 支持 度 。 

@ 将 计算 得 到 的 支持 度 同 阅 值 进行 比较 。 如果 支持 度 小 
于 该 阅 值 ， 则 输出 网 页 的 类 型 为 Hub 网 页 ， 否则 输出 网 页 类 
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型 为 主题 型 。 

在 该 验证 方法 实现 过 程 中 ， 阔 值 是 通过 实验 的 方 
法 获取 , 实验 中 选取 500 个 Hub 网 页 , 计算 每 个 网 页 
为 主题 型 网 页 的 综合 支持 度 , 发 现 其 值 都 集中 在 0.6 
以 下 , 其 中 大 部 分 集中 在 -0.2 以 下 ,因此 确定 了 阅 值 
大 致 范围 ， 最 终 在 该 范围 内 进行 逐一 测试 实验 ,， 找 出 
最 优 阔 值 ， 使 得 实验 准确 率 最 高 。 

D 基于 内 容 特征 的 机 器 学 习 方 法 

DHTML 解析 。 通 过 建立 DOM 树 去 掉 与 网 页 分 类 无 关 
$5 HTML 源码 。HTML 解析 步骤 如 下 : 

1) 规 范 化 HTML 标签 

由 于 有 些 网 页 中 的 HTML 标签 是 错误 的 、 丢 失 的 ,为 
了 后 续 处 理 的 方便 ， 需 要 将 错误 的 标签 改正 回来 ， 将 丢失 的 
标签 补 全 。 


2) 建 立 DOM 树 
由 HTML 中 的 标签 建立 一 棵 DOM 树 。 
3) RAR 


除去 <style> <script>, «applet» AF 4r 4 Pág HTML 
源码 ， 因 为 这 些 代 码 只 与 网 页 表现 形式 有 关 ， 而 与 网 页 内 容 
无 关 。 

4 信息 提取 

从 网 页 中 抽取 信息 ， 包 括 : 网 页 深度 、 更 新 周期 、 锚 文 
本 文字 数量 、 文 本 文字 数量 、 含 有 URL 个 数 、 含 有 新 URL 
个 数 。 

@) 特 征 提取 。 通 过 观察 与 实验 ,， 找 出 在 两 种 网 页 类 型 上 
存在 差异 的 特征 项 ， 因 此 提取 8 个 网 页 内 容 特 征 ， 分 别 为 : 
文本 文字 与 文本 文字 数量 之 比 、URL 个 数 、 新 URL 个 数 、 
新 URL 所 占 比 率 。 

@ 训 练 分 类 。 根 据 提取 的 特征 值 建立 训练 集 与 测试 集 ， 
训练 SVM 分 类 模型 。 


5 结果 与 分 析 


5.1 评价 指标 

对 识别 效果 主要 从 两 个 方面 进行 评价 : 识别 效率 
与 识别 效果 。 其 中 , 效率 就 是 系统 开销 ,包括 耗费 时 
间 、 内 存 使 用 率 和 CPU 使 用 率 ; 效果 主要 包括 准确 率 
和 召回 率 。 

准确 率 (Precision)， 表 示 在 分 类 过 程 中 得 到 的 网 
页 测试 集中 ,网 页 类 别 被 正确 标注 的 网 页 所 占 的 比率 ， 
反映 分 类 器 分 类 的 准确 程度 。 召 回 率 (Recal])， 表示 在 
分 类 过 程 中 得 到 的 网 页 测试 集中 , 真正 网 页 类 别 被 正 
确 标 注 在 所 有 符合 该 类 别 的 网 页 测试 集中 所 占 的 比 
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AR, 反映 分 类 器 查 到 相关 网 页 的 完备 性 。 

准确 率 与 召回 率 反 映 分 类 效果 的 两 个 方面 是 互 
补 的 , 单纯 的 提高 某 一 个 , 另外 一 个 就 会 受到 其 影 
响 。 在 实际 应 用 中 , 需要 综合 考虑 准确 率 与 召回 率 ， 
目前 主要 用 F1 值 作为 评价 标准 ,反映 准确 率 和 召回 
率 综合 效果 。 

实验 采用 Precision, Recall FU F1 评价 网 页 分 类 的 
效果 , Precision, Recall FI F1 计算 方法 如 下 所 示 。 参 数 
含义 如 表 1 所 示 。 


TP 


Precision = 一 一 一 -一 
TP+FP 


(1) 


Recall = o (2) 
TP+FN 


. 2xPrecision x Recall 


(3) 


Precision + Recall 


el 参数 解释 


Ex. F] png 
Hub XI - 专家 判断 - 
es o 
Yes TP FP 
分 类 器 判断 X FN IN 
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5.2 ”实验 数据 与 环境 

在 实验 中 ， 从 50 个 中 文 网 站 采集 网 页 ， 这 50 个 网 
站 大 致 分 为 : 政府 网 站 (10 个 )、 教 育 网 站 (10 个 )、 事 业 
单位 网 站 (10 个 )、 公 司 网 站 (10 个 ) 和 新 闻 网 站 (10 个 )。 
其 中 ,由 于 新 闻 网 站 网 页 数量 较 大 ， 因 此 每 个 新 闻 网 
站 采集 500 个 网 页 ， 而 其 他 4 种 类 型 网 站 相对 较 小 , 因 
此 采集 300 个 网 页 。 为 了 保证 数据 的 多 样 性 ， 同 时 保证 
实验 数据 的 简单 高 效 ,需要 对 采集 的 网 页 进行 筛选 精 
简 , 减少 数据 元 余 。 从 采集 的 网 页 中 分 别 选取 1 000 个 、 
2 000 个 和 3 000 个 作为 训练 集 ， 每 个 训练 集 从 每 种 类 
型 网 站 中 平均 选取 , 其 中 Hub 网 页 与 主题 网 页 数量 
占 一 半 。 构 造 三 个 训练 集 是 为 了 确定 训练 集 大 小 的 合 
适 取 值 。 

在 训练 机 占 学 习 模 型 时 , 是 在 随机 切 分 的 测试 数 
据 上 得 到 的 交叉 验证 平均 准确 率 ,因此 对 已 有 算法 就 
不 能 使 用 同样 的 测试 数据 , 造成 缺乏 可 比 性 。 因 此 在 
实验 中 又 标注 了 另外 30 个 网 站 中 的 1 000 个 网 页 作为 
测试 数据 ,其 中 包括 600 个 Hub 网 页 和 400 个 主题 网 
页 。 保 证 了 与 已 有 算法 的 可 比 性 , 同时 也 在 一 定 程度 
上 证 明 本 文 提出 算法 的 稳定 性 。 


实验 环境 使 用 Win7 系统 , CPU 为 Intel WZ, 内存 
为 2GB。 

5.3 ”实验 结果 

本 实验 分 别 选 用 基于 URL 特征 的 Hub 网 页 识别 
方法 、 基 于 多 特征 启发 式 规则 的 网 页 分 类 方法 和 基于 
内 容 特征 的 机 器 学 习 方 法 进行 三 次 实验 。 

表 2 为 采用 基于 URL 特征 的 Hub 网 页 识别 方法 
得 到 的 实验 结果 , 经 计算 得 到 Precision 为 91.20%, 
Recall 为 86.3396, F1 为 88.70%。 在 训练 样本 上 对 模型 
进行 十 折 交 叉 验证 得 到 平均 准确 率 为 91%。 

表 2 基于 URL 特征 的 Hub 网 页 识别 


EE *k pk 
Hub Bi - 专家 判断 - 
es o 
Yes 518 50 
enm N 82 350 
o 


d 3 为 采用 基于 多 特征 启发 式 规则 的 网 页 分 类 方 

法 得 到 的 结果 , 实验 中 浆 值 在 -0.2 到 0.6 之 间 选 取 , 经 

多 次 实验 发 现 闵 值 选择 -0.1 时 , 准确 率 最 高 , 经 计算 

得 到 Precision 为 86.6396, Recall 为 83.17%, F1 为 

84.86%, 该 结果 已 达到 曹 桂 峰 中 所 做 实验 的 效果 。 
表 3 基于 多 特征 启发 式 规则 的 网 页 分 类 


EA 

Hub 网 页 ERES x 

es o 

Ss Yes 499 T] 

RD N 101 323 
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表 4 为 采用 基于 内 容 特征 的 机 器 学 习 方法 得 到 的 
实验 结果 , 经 计算 得 到 Precision 为 88.73%, Recall 为 
90.50%, F1 为 89.61%, 该 结果 已 达到 文献 [9] 中 实验 的 
效果 。 


表 4 基于 内 容 特 征 的 识别 


专家 判断 
Hub 网 页 
Yes No 
T Yes 543 69 
分 类 器 判断 
No 57 331 


表 5 是 在 三 种 方法 具体 实现 时 ,得 到 的 各 个 方法 
运行 过 程 中 消耗 的 时 间 、 内 存 使 用 情况 和 CPU 使 用 
情况 。 

5.4 ”分 析 与 讨论 
为 证 明基 于 URL 特征 的 Hub 网 页 识别 方法 的 稳 


表 5 三 种 方法 的 系统 开销 数据 


实验 方法 处 理 耗 时 ”内存 使 用 CPU 
组 别 网 页 数 Is /MB 使 用 率 
基于 多 特征 
1 NS 1 000 79.6 112 51% 
启发 式 规则 ° 
2 “基于 内 容 特征 ”1000 87.5 128 59% 
3 ”基于 URL 特征 1000 21.3 36 17% 


定性 , 在 训练 阶段 对 该 模型 进行 了 十 折 交 叉 验 证 ,得 
| 平均 准确 率 为 91%, 用 该 模型 对 测试 数据 进行 测试 
时 , 得 到 准确 率 为 91.2%, 这 两 组 数据 没有 明显 差异 ， 
由 此 可 以 证 明 该 方法 具有 一 般 性 与 稳定 性 。 实 验 结果 
对 比如 图 2 所 示 : 
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国 URL 特 征 四 启 发 式 规则 B 内 容 特 征 


图 2 效果 对 比 


基于 URL 特征 的 Hub 网 页 识别 方法 优 于 基于 多 
特征 启发 式 规则 的 分 类 方法 , 经 分 析 原 因为 : 基于 多 
特征 启发 式 规则 的 分 类 方法 缺乏 灵活 性 , 不 可 能 适用 
于 所 有 网 页 ; 在 基于 多 特征 启发 式 规则 的 分 类 方法 中 
闵 值 的 设 定 存 在 盲目 性 ; JE T URL 特征 的 Hub 网 页 识 
别 采 用 机 器 学 习 模型 ， 能 发 掘 特征 之 间 的 内 在 联系 ， 
具有 很 强 的 泛 化 能 力 。 

基于 URL 特征 的 Hub 网 页 识别 方法 与 基于 内 容 
特征 的 机 器 学 习 方 法 在 实验 效果 上 没有 太 大 差异 ， 
为 两 者 采用 了 相同 的 识别 方法 ， 只 是 选择 的 特征 对 象 
不 同 。 基 于 URL 特征 的 方法 在 准确 率 上 优 于 基于 内 容 
特征 的 方法 , 而 在 召回 率 上 低 于 基于 内 容 特 征 的 方法 ， 
原因 是 : Hub 网 页 所 对 应 的 URL 特征 明显 ， 如 URL 标 
题 和 URL 长 度 较 短 、 不 包含 日 期 等 , 所 以 依据 URL 
寺 征 识别 的 准确 率 会 相对 较 高 。 但 URL 存在 很 大 随意 
性 , 没有 统一 规范 ,依据 个 人 设 定 ， 当 不 符合 一 般 特 
性 的 URL 出 现时 ， 该 方法 很 难 识别 , 所 以 召回 率 会 相 
对 较 低 ; Hub 网 页 的 内 容 存在 一 般 特 性 ， 如 链接 较 多 ， 
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普通 文本 文字 较 少 等 ,基本 所 有 Hub 网 页 都 满足 此 特 
性 , 所 以 依据 内 容 特征 识别 的 召回 率 会 很 高 。 但 有 些 
主题 网 页 也 存在 很 多 相关 链接 ,其 中 内 容 文 本 也 很 短 ， 
所 以 依据 内 容 特 征 识 别 的 准确 率 会 降低 。 综 上 所 述 ， 
这 两 种 方法 在 识别 效果 上 差别 很 小 , 各 有 优点 , 但 是 
在 识别 效率 上 存在 明显 差别 。 

如 表 5 所 示 , 基于 URL 特征 的 Hub 网 页 识别 方法 
在 运行 效率 上 有 很 大 的 优势 ,时 间 消 耗 少 , 大 幅度 降 
低 了 识别 时 间 (70%)。 因 为 URL 本 身 相 对 较 小 , URL 
特征 提取 就 相对 简单 , 但 提取 网 页 内 容 特 征 需 要 进行 
HTML fi, HTML 解析 本 身 就 是 一 项 耗 时 的 工作 ; 
WES CPU 占用 较 少 , 大约 为 传统 方法 的 60%， 对 采 
集 系统 影响 小 。 因 为 在 采集 过 程 中 本 就 会 提取 URL, 
所 以 不 会 带 来 很 大 的 额外 开销 ,也 不 会 影响 采集 系统 
的 采集 效率 。 综 合 以 上 原因 , 基于 URL 特征 的 Hub 
网 页 识别 方法 具有 一 定理 论 意 义 与 实际 应 用 价值 ， 是 
一 种 行 之 有 效 的 方法 。 


6 结 语 


本 文 提出 的 基于 URL 特征 的 Hub 网 页 识别 技术 ， 
通过 提取 URL 特征 以 训练 机 顺 学 习 模 型 ， 达 到 自动 识 
别 的 目的 。 实 验 结果 表明 , 该 方法 在 达到 传统 方法 识 
别 效果 的 同时 ,能 降低 约 60% 的 系统 开销 。 但 该 方法 存 
在 一 定局 限 性 , 因为 URL 本 身 具 有 一 定 随意 性 ， 当 遇 
到 URL 特征 不 明显 甚至 完全 相 背 的 网 站 时 ， 识 别 准确 
率 会 大 幅度 降低 ， 此 时 需要 结合 网 页 内 容 特征 去 识 
别 。 因 此 ， 如 何 将 基于 内 容 特 征 的 方法 与 基于 URL 
特征 的 方法 相 结合 以 适应 所 有 网 站 , 是 下 一 步 研究 
的 重点 。 
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A Study on Hub Page Recognition Using URL Features 


Zhang Ce! Du Yuncheng" Liang Ran 
(Open Laboratory of TRS Software, Beijing Information Science and 
Technology University, Beijing 100085, China) 
"(Beijing TRS Information Technology Co. Ltd., Beijing 100101, China) 


Abstract: [Objective] By building a simple data sample, the low efficiency as the problem of traditional recognition 
method is solved. [Methods] This method uses URL features as the basis of recognition, and uses Support Vector 
Machine (SVM) to recognize page type. [Results] The precision of this method is 91.2%, also in terms of efficiency 
performance, the method is increased by nearly 6096. [Limitations] When the URL feature is not obvious or even 
completely contrary, the recognition accuracy will be greatly reduced. [Conclusions] The experimental results show 
that the method has a great advantage in efficiency, and it will increase the efficiency of the collection system. 
Keywords: URL features Hub pages SVM 
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